We present an automatic method for annotating images of indoor scenes with the CAD models of the objects by relying on RGB-D scans. Through a visual evaluation by 3D experts, we show that our method retrieves annotations that are at least as accurate as manual annotations, and can thus be used as ground truth without the burden of manually annotating 3D data. We do this using an analysis-by-synthesis approach, which compares renderings of the CAD models with the captured scene. We introduce a 'cloning procedure' that identifies objects that have the same geometry, to annotate these objects with the same CAD models. This allows us to obtain complete annotations for the ScanNet dataset and the recent ARKitScenes dataset.
translated by 谷歌翻译
We propose a method for in-hand 3D scanning of an unknown object from a sequence of color images. We cast the problem as reconstructing the object surface from un-posed multi-view images and rely on a neural implicit surface representation that captures both the geometry and the appearance of the object. By contrast with most NeRF-based methods, we do not assume that the camera-object relative poses are known and instead simultaneously optimize both the object shape and the pose trajectory. As global optimization over all the shape and pose parameters is prone to fail without coarse-level initialization of the poses, we propose an incremental approach which starts by splitting the sequence into carefully selected overlapping segments within which the optimization is likely to succeed. We incrementally reconstruct the object shape and track the object poses independently within each segment, and later merge all the segments by aligning poses estimated at the overlapping frames. Finally, we perform a global optimization over all the aligned segments to achieve full reconstruction. We experimentally show that the proposed method is able to reconstruct the shape and color of both textured and challenging texture-less objects, outperforms classical methods that rely only on appearance features, and its performance is close to recent methods that assume known camera poses.
translated by 谷歌翻译
我们提出了一种新颖的端到端方法,用于在事件流中进行关键点检测和跟踪,该方法比以前的方法提供了更好的精度和更长的关键点轨道。两项贡献共同努力使这成为可能。首先,我们提出了一个简单的过程来生成稳定的关键点标签,我们用来训练复发架构。该培训数据导致检测随着时间的推移非常一致。此外,我们观察到以前的按键检测方法在一段时间内集成事件的表示形式(例如时间表面)。由于需要这种集成,因此我们声称最好预测时间段的关键点的轨迹,而不是单个位置,如先前的方法中所做的那样。我们以一系列热图的形式预测这些轨迹在整合时间段。这可以改善关键点本地化。我们的体系结构也可以保持非常简单,从而导致非常快的推理时间。我们在HVGA ATIS角数据集以及“事件相机数据集和模拟器”数据集上演示了我们的方法,并将其显示为“关键点”轨道的三倍,几乎是最好的先前最佳先前最佳先前的轨道轨迹。 - 艺术方法。我们认为我们的方法可以推广到其他基于事件的相机问题,并发布我们的源代码以鼓励其他作者探索它。
translated by 谷歌翻译
我们为视频中的无监督对象细分提出了一种简单而强大的方法。我们引入了一个目标函数,其最小值代表输入序列上主要显着对象的掩码。它仅依赖于独立的图像特征和光流,可以使用现成的自我监督方法获得。它以序列的长度缩放,不需要超级像素或稀疏,并且在没有任何特定培训的情况下将其推广到不同的数据集。该目标函数实际上可以从应用于整个视频的光谱群集形式得出。我们的方法通过标准基准(Davis2016,segtrack-v2,fbms59)实现了PAR的性能,同时在概念上且实际上更简单。代码可从https://ponimatkin.github.io/ssl-vos获得。
translated by 谷歌翻译
估计没有先验知识的新对象的相对姿势是一个困难的问题,而它是机器人技术和增强现实中非常需要的能力。我们提出了一种方法,可以在训练图像和对象的3D几何形状都没有可用时跟踪对象中对象的6D运动。因此,与以前的作品相反,我们的方法可以立即考虑开放世界中的未知对象,而无需任何先前的信息或特定的培训阶段。我们考虑两个架构,一个基于两个帧,另一个依赖于变压器编码器,它们可以利用任意数量的过去帧。我们仅使用具有域随机化的合成渲染训练架构。我们在具有挑战性的数据集上的结果与以前需要更多信息的作品(训练目标对象,3D模型和/或深度数据的培训图像)相当。我们的源代码可从https://github.com/nv-nguyen/pizza获得
translated by 谷歌翻译
下一个最佳视图计算(NBV)是机器人技术中的长期问题,并包括确定下一个最有用的传感器位置,以有效,准确地重建3D对象或场景。像大多数当前方法一样,我们考虑了深度传感器的NBV预测。基于学习的方法依靠场景的体积表示适合路径规划,但与场景的大小相比,与使用基于表面的表示相比,相比,与场景的大小相比,准确性较低。但是,后者将相机限制为少量姿势。为了获得两种表示的优势,我们表明我们可以通过蒙特卡洛整合在体积表示上最大化表面指标。我们的方法会缩放到大型场景并处理自由相机运动:它需要输入一个任意的大点云,该点由LiDar Systems等深度传感器收集,以及相机姿势以预测NBV。我们在一个由大而复杂的3D场景制成的新型数据集上演示了我们的方法。
translated by 谷歌翻译
我们提出了MonteboxFinder,该方法给定嘈杂的输入点云将立方体适合输入场景。我们的主要贡献是一种离散的优化算法,从一组最初检测到的立方体,它能够有效地从嘈杂的盒子中过滤好盒子。受到MCT在理解问题的最新应用的启发,我们开发了一种随机算法,该算法是通过设计更有效的。确实,适合立方排列的质量对于将立方体添加到场景的顺序中是不变的。我们为我们的问题开发了几个搜索基准,并在扫描仪数据集上证明了我们的方法更有效和精确。最后,我们坚信我们的核心算法非常笼统,并且可以扩展到3D场景理解中的许多其他问题。
translated by 谷歌翻译
我们提出了一种适用于许多场景中的新方法,理解了适应Monte Carlo Tree Search(MCTS)算法的问题,该算法最初旨在学习玩高州复杂性的游戏。从生成的建议库中,我们的方法共同选择并优化了最小化目标项的建议。在我们的第一个从点云中进行平面图重建的应用程序中,我们的方法通过优化将深度网络预测的适应性组合到房间形状上的目标函数,选择并改进了以2D多边形为模型的房间建议。我们还引入了一种新型的可区分方法来渲染这些建议的多边形形状。我们对最近且具有挑战性的结构3D和Floor SP数据集的评估对最先进的表现有了显着改进,而没有对平面图配置施加硬性约束也没有假设。在我们的第二个应用程序中,我们扩展了从颜色图像重建一般3D房间布局并获得准确的房间布局的方法。我们还表明,可以轻松扩展我们的可区分渲染器,以渲染3D平面多边形和多边形嵌入。我们的方法在MatterPort3D-Layout数据集上显示了高性能,而无需在房间布局配置上引入硬性约束。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
在本报告中,我们介绍了我们(非常简单的)两步“侦测 - 然后匹配”的视频实例分段方法。第一步对每个帧执行实例分段以获得大量实例掩码提案。第二步是在光流的帮助下执行帧间实例掩模匹配。我们证明,通过高质量的掩模提案,简单的匹配机制足以跟踪。我们的方法实现了UVO 2021基于视频的开放世界分割挑战的第一名。
translated by 谷歌翻译